Использование баз данных UniProt

Общая информация о белке

На этой странице я описываю один из белков Burkholderia sp. MSMB122. Он малоизучен, предполажительно представляет собой гликозилтрансферазу. Впервые информация об этом белке (его идентификатор ADZ55340.1) появляется в базах UniProt 18 апреля 2012 года. Последние дополнения производились 2 ноября 2016.
Гликозилтрансферазы — ферменты (КФ 2.4), переносящие остатки моносахаридов от углевода-донора на молекулу-акцептор, чаще всего спирт. Продуктами реакции могут быть моносахариды, гликозиды, олигосахариды, полисахариды, а также гликопротеиды.(Материал взят из Википедии)
Общая информация о предполагаемой гликозилтрансферазе. (табл.1)
Uniprot ID H6TI94_9BURK
Uniprot AC H6TI94
Refseq ID WP_015600402.1
PDB ID -.-.-
Длина (AA) 728
Молекулярная масса (Da) 81,237
RecName (Full) Putative glycosyltransferase
Статус Unreviewed
Некоторая информация из файла UniProt:
~Всего было 14 модификаций записи, послядняя была произведена 2 ноября 2016 года.
~Авторы статьи "Detection of Burkholderia pseudomallei O-antigen serotypes in near-neighbor species." в журнале PubMed: Stone J.K., Mayo M., Grasso S.A., Ginther J.L., Warrington S.D., Allender C.J., Doyle A., Georgia S., Kaestli M., Broomall S.M., Karavis M.A., Insalaco J.M., Hubbard K.S., McNew L.A., Gibbons H.S., Currie B.J., Keim P., Tuanyok A.
~Таксономическое положение бактерии Burkholderia sp. MSMB122: Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Burkholderiaceae; Burkholderia; pseudomallei group.
~Структура белка известна полностью и представлена одной цепью.
                      
                           
    SEQUENCE   728 AA;  81237 MW;  6C8401C0523FE115 CRC64;
     MEMRNRLLGP LRPHARRIGR KLYQAVPLSS RNKARLTDAV FRLAGPLFEG TVYYETWKRQ        
     NAPLQQVLGR APLVDAEDID AALAGLRFAE IAEPKVSVVI PAYGNLPYTL SCLRSIAEHL
     PAVPIEVIVA EDASGCQQIL RLRNVPGLRF VENPQNLGFV RSCNHAATFA RGEYLYFLNN
     DTEVTPGWLD SMLALFAARP DCGMVGSKLV YPDGRLQEAG GIMWKDGSAW NFGRLDDPSK
     SAFNYVKETD YASGASLLLP KQLFDALGGF DERYVPAYCE DSDLAFKVRS AGKKVYYQPE
     SVIIHYEGVS NGTDTSTGIK AYQVENQKKF RERWQDVLSR DHFDNGTNVG AARERTRRRK
     TLLIVDHYVP QPDRDAGSRS LVCFIHVFLQ MGFNVKFWPS NIWYDEAYVK PLQQLGVEVF
     YGPQFIDGFD EWIRHADQAI DYVFLNRPHV SKAFIAPLRK YAPNAKLLYY GHDLHFARAL
     KEFEVSGNAR IRKDAEAMRT LEMKIWRSVD VVYYPSDAET AVVNEMAPGV NARTLPPYFF
     QPRLTPAGRP DARERNQIIF VAGFGHPPNV DAAKWFVSDI LPRIVEAVPD ANLMLIGSNP
     TDEVKALAAS NVTVTGYVTD ERLAELYDRA RVAVVPLRFG AGVKNKVVEA LNFGAPLVTT
     PVGLQGLPGL DDVVPATDDP AAFAQCVTGL IRDDARWQTL SDAGRAYVAS HFSSAAMRDV
     FALDLQTN
                          
     
~Вывод о малоизученности белка поддтверждается в графе PE, характеризующей информацию, как "прогнозируемую".
~Так как RecName отсутствует, то в соответствующую строку я указываю SubName

Описание кластеров UniRef

Описание кластеров белка (табл.2)
Uniref Идентификатор Количество белков Дата публикации
UniRef100 UniRef100_H6TI94 2 5 октября 2016
UniRef90 UniRef90_D5KLD3 10 15 февраля 2017
UniRef50 UniRef50_D5KLD3 15 15 февраля 2017
~UniRef100 объединяет идентичные последовательности и суб-фрагменты с 11 или более остатками из любого организма в одну запись UniRef.
~UniRef90 строится путем кластеризации последовательностей UniRef100, которые имеют по крайней мере 90% идентичности последовательности и 80% накладываются на самую длинную последовательность.
~UniRef50 построен путем кластеризации последовательностей UniRef90, которые имеют по меньшей мере 50% идентичности последовательности и 80% накладываются на самую длинную последовательность в кластере.

Результаты нескольких сеансов поиска в Uniprot

Результаты поиска (табл.3)
Текст запроса Количество белков Количество белков из раздела Reviewed Суть запроса
name:"putative glycosyltransferase" 12055 41 Поиск по представленному названию белка.
name:"putative glycosyltransferase" AND organism:"burkholderia sp msmb122" 3 0 Поиск по представленному названию среди белков своего организма.
name:"putative glycosyltransferase" AND taxonomy:"burkholderiaceae" 238 0 Поиск по представленному названию среди белков из организмов того же семейства (family Burkholderiaceae).
name:"putative glycosyltransferase" AND taxonomy:"proteobacteria" 4337 5 Поиск по представленному названию среди белков из организмов того же отдела (phylum proteobacteria).
name:"actin" 52009 1135 Поиск по названию (Актин)
name:"actin" AND taxonomy:"fungi" 22809 215 Поиск по названию (Актин) среди Fungi
name:"actin" AND taxonomy:"vertebrata" 10043 501 Поиск по названию (Актин) среди Vertebrata
name:"trypsin" 13241 310 Общий поиск по названию (Трипсин)
name:"trypsin" AND name:"inhibitor" 2962 209 Поиск ингибиторов, включающих в названии Трипсин
Для облегчения подсчета белков из раздела Reviewed в строку поиска необходимо добавить "AND Reviewed:yes"

Отличия в записях UniProt и RefSeq

Самым заметным различием записей этих баз данных является их направленность. UniProt ориентирован на связи и взаимодействия с другими организмами. Кроме того, здесь также дается информация, характеризующая белок в целом (например, молекулярная масса белка или его функция). RefSeq же раскрывает подробную информации о последовательности аминокислот в белке. Однако, в этой базе данных нет ни ссылок на другие базы, ни ссылок на публикации(иные, нежели самая первая, посвященная открытию белка), ни указания вида организма, содержащего исследуемый белок.
При более глубоком изучении баз данных различий становится больше.

История изменений записи Uniprot

Для наглядности, привожу фрагмент таблицы из Uniprot. С полным ее вариантом можно ознакомится на сайте

Всего было произведено 14 изменений. Постепенно от версии к версии появляются новые строки, характеризующие. Например от второй к третьей версии расширяется информация об авторах и публицациях; от третьей к четвертой - уточняется принадлежность белка; от восьмой к девятой - появляется еще одна строка с представленным именем (SubName), которая исчезает в 13 версии.
Кроме того, какая-то информация исчезает: одна из строк DR, присутствующая в пятой версии исчезает в шестой; то же самое происходит при переходе от 13 к 14 версии.
От версии к версии ссылки на различные базы данных (DR) появляются и исчезают. Но в итоговой, четырнадцатой, версии белок все еще имеет статус 4: Predicted, указывающий на то, что он остается малоизученным.

Некоторые трудности

В самом начале подготовки к практикуму у меня возникли непредвиденные трудности. Поиск по CDS мне ничего не дал. Дальнейший поиск по всем трем PDB ID также не увенчался успехом, потому что среди найденных файлов не нашелся тот, который содержал бы белок, принадлежащий Burkholderia sp. MSMB122. Мною было написано письмо, описывающее возникшую ситуации. Однако близость дедлайна вынудила меня выбрать один из белков, принадлежащих моей бактерии. Поэтому, идентификатор CDS описываемого мной белка не соответствует указанному в таблице.


© Serebrennikova Maria 2017